Ekonometria przestrzenna


Predykcja cen mieszkań w Pekinie za pomocą Lasu Losowego, Geograficznie Ważonej Regresji oraz Geograficznie Ważnonego Lasu Losowego


Robert Zawadzki

25.01.2023



Wstęp

Celem niniejszej pracy jest przedstawioenie modeli przeznaczonych do predycji regresyjnych dla danych geolokalizacyjnych oraz zbadanie użyteczności uwzględniania czynników przestrzennych w modelach predykcyjnych. Do porównania modeli Lasu Losowego (Random Forest), Random Forest ze współczynnikami wyestymowanymi za pomocą modelu Geograficznie Ważnonej Regresji (GWR) oraz Geograficznie Ważonego Lasu Losowego (GWRF), użyto cen mieszkań w Pekinie w latach 2015-2017.

Zbiór danych

Do przeprowadzenia badania posłużono się zbiorem danych "Housing price in Beijing" . Dane pochodzą ze strony kaggle oraz obejmują ceny mieszkań w latach 2011-2018. Zbiór zawiera 26 zmiennych oraz 318851 obserwacji. Do modelowania wyselekcjonowano następujące zmienne ze zbioru:

Dla zbioru treningowego (rok 2015) wylosowano 2000 obserwacji, natomiast zbiór walidacyjny (rok 2016) oraz testowy (rok 2017) posiadają kolejno: 1000 oraz 500 obserwacji. Zmniejszenie obserwacji jest wynikiem ograniczeń wynikających z zastosowania Geograficznie Ważonego Lasu Losowego (GWRF). Uwzględnienie tak małej liczby obserwacji wynika z wysokich wymagań modelu GWRF, który zabiera duża ilość pamięci RAM. Dodatkowo dodano dwie zmienne za pomocą funkcji distHaversine obliczającą odległość od dwóch punktów.
  • centre_dist - Odległość od centrum Pekina
  • sub_dist - Odległość do najbliższej stacji metra. Dane geolokalizacyjne zostały ściągnięte za pomocą scrapera wyszukującego ze strony wikipedii posiadającej listę oraz odwołania do stacji pekińskich, a następnie pobierającego koordynaty z podstrony każdej stacji. Dane podzielone są na 3 lata, by stacje powstałe po okresie podzielonego zbioru danych w konkretnym roku nie zostały w nim uwzględnione.
  • Analiza zbioru danych

    Najdroższe mieszkanie kosztuje 150 tysiecy juanów. Można zauważyć, iż mieszkania tanieją w zależności oddalenia od centrum. Największa ilość tanich mieszkań znajduje się na wschodzie Pekinu.
    W zbiorze przeważają mieszkania z jedną kuchnią, dwoma pokojmami, jedną łazienką oraz salonem. Są mieszkania bez łazienek, kuchni i salonu.
    Największy odsetek mieszkań znajduje się w budynkach wykonanych z kompozytu stalowo betonowego wraz z budynkami wykonanymi z płyty. Większość z nich została sklasyfikowana jako budynki o stanie renowacji twardym lub prostym. Przeważnie w budynkach znajduje się winda, aczkolwiek prawie 1500 ofert mieszkań nie posiada jej w swoich budynkach. Oferowane mieszkania zostały wybudowane w przedziale 0-60 lat.
    Nowsze mieszkania budowane są zarówno w okolicach centrum jak i w dalszych dzielnicach. Natomiast nowsze mieszkania znajdują się w dalszych dzielnicach.
    Silnie dodatnio skorelowane są ze sobą zmienne opisujące windę oraz strukturę budynku. Posiadanie windy jest skorelowane również z piętrem na którym znajduje się mieszkanie. LivingRoom, drawingRoom oraz bathroom są mocno skorelowane z powierzchnią mieszkania. Ujemnie natomiast skorelowany jest typ budynku wraz z piętrem mieszkania. Zmienne nie posiadają silnej korelacji ze zmienna objaśnianą.

    Random Forest

    Random Forest to model zbudowany złożonego drzewa decyzyjnego. Drzewo decyzyjne składa się z wielu drzew, które tworzą model. Każde drzewo w modelu jest tworzone na podstawie losowo wybranych cech, a wynikiem jest decyzja - klasyfikacja lub regresja. Model wykorzystuje wiele drzew i wybiera, najlepiej pasujący do wszystkich drzew w modelu. Uproszczony wzór regresyjny można zapisać:
    Yi = axi + e, i=1:n
    Gdzie:
    Yi - Wartość zmiennej zależnej dla i-tej obserwacji
    axi - Nieliniowa predykcja modelu lasu losowego opartego na zbiorze zmiennych niezależnych i
    e - błąd predykcji Powyższe równanie pomija rozkład przestrzenny

    Do dokonania predykcji za pomocą lasów losowych użyto bibliotekę H2O. Narzędzie to umożliwia ułatwione tworzenie modeli uczenia maszynowego przy użyciu zaimplementowanych w niej algorytmów, w tym Lasów Losowych.
    Spośród 20 modeli, najlepszym modelem jest las losowy posiadający 430 drzew z maksymalną głębokością wynoszącą 40 wraz z sample rate równym 0.8
    Dane walidacyjne posiadają mniejszy błąd średniokwadratowy, natomiast ich R2 jest mniejsze niż zbioru testowego.
    Na podstawie map, zauważalne jest niedoszacowanie cen mieszkań w Pekinie dla zbioru walidacyjnego oraz testowego.
    Model Random Forest, wskazuje że najważniejszym czynnikiem ceny mieszkania jest jego odległość od centrum, a kolejno rok budowy i odległość od metra.

    Random Forest ze współczynnikami GWR (RF&GWR)

    Geographically Weighted Regression

    Model GWR (Geographically Weighted Regression) jest modelem regresji lokalnej, który jest używany do modelowania zmiennych zależnych od zmiennych przestrzennych. Model ten jest lokalnie regresją liniową, która generuje lokalne oszacowania parametrów modelu dla każdego punktu lub regionu, w którym zbierane są dane. Model GWR można zapisać w następujący sposób:

    Yi = β0(ui, vi) + β1(ui, vi)x1 + β2(ui, vi)x2 ... βn(ui, vi)xn + e; i=1:n

    Gdzie
    Yi - wartość zmiennej niezależnej
    (ui, vi) - określa punkt o współrzędnych (długość i szerokość geograficzna)
    xi - jest wartością stałej zmiennej, która jest znana i nie zawiera błędów dla i-tej obserwacji.
    Najmniejsza wartość AIC została uzyskana dla jądra exponential ze średnicą 64.
    Powyższy rysunek przedstawia widok koła regresji, tworzony na podstawie metody krokowej. Zmienna objaśniana znajduje się na środku wykresu, natomiast węzły prezentują zmienne objaśniające. Najmniejsze kryterium AIC posiada model ze wszystkimi zmiennymi
    Rysunek przedstawia wartości AIC dla danego modelu. Identycznie jak wcześniejszy wykres, przedstawia wydajność modelu, względem dodania kolejnych zmiennych. Najmniejszą wartość kryterium osiągnął model uwzględniający wszystkie zmienne.
    Wszystkie zmienne oprócz kitchen, buildingStructure oraz floor są istotne na poziomie 10%

    Random Forest i współczynniki GWR

    Sprawdzono czy model Random Forest ulegnie poprawie po wprowadzeniu do niego współczynników z modelu GWR jako zmiennych. Zastosowano identyczne kroki jak przy modelowaniu lasu losowego ze zwykłymi danymi.
    Dla modelu RF&GWR zauważalny jest mocny spadek wartości RMSE dla zbioru treningowego. Najlepszy model posiada maksymalną głębokośc na poziomie 40, 450 drzew oraz sample rate równy 0.7.
    Dla zbiorów walidacyjnych oraz testowych błąd średniokwadratowy wraz z R2 uległ poprawie.
    Również wyestymowane wartości są lepiej dopasowane do prawdziwych wartości.
    Na mapach zauważalna jest poprawa wycen mieszkań, pomimo że w dalszym stopniu ceny są niedoszacowane.
    Dla modelu RF&GWR feature importance uległ znacznej zmianie. Najważniejszym czynnikiem w tym wypadku jest struktura budynku oraz odległość od centrum. Również ilość salonów jest istotnym czynnikiem. Odległość od metra oraz rok budowy znacząco spadły w porównaniu do modelu Random Forest.

    Geographical Weighted Random Forest

    Geograficznie ważony Random Forest jest metodą analizy przestrzennej, która wykorzystuje las losowy na na płaszczyźnie lokalnej. Dla każdej lokalizacji tworzony jest lokalny las losowy, który uwzględnia jedynie n najbliższych obserwacji, co pozwala na obliczenie lasu losowego w każdym punkcie z przypisaną do niego mocą predykcyjną oraz wydajnością. Bada istnienie stacjonarności przestrzennej między zbiorem zmiennych niezależnych, a zmienną zależną za pomocą dopasowania podmodelu dla każdej obserwacji przy uwzględnieniu sąsiedujących obserwacji. Jest metodą koncepcyjnie bazującą na regresji ważnonej geograficznie (GWR), lecz główną różnicą poniędzy modelem GWR a GWRF jest modelowanie niestacjonarności, włączając elastyczny model nieliniowy, który ze względu na charakter ładowania początkowego jest cięzki do przeuczenia. Uproszczony wzór wygląda następująco: Yi = a(ui, vi)x + e, i=1:n
    Gdzie:
    Yi - Wartość zmiennej zależnej dla i-tej obserwacji
    ui, vi - lokalizacja geograficzna X,Y
    a(ui, vi)x - Predykcja modelu lasu losowego (ax) skalibrowanego w lokalizacji i
    e - błąd predykcji Do modelowania Geograficznie Ważonego Lasu Losowego posłużono się pakietem "SpatialML".
    Feature Importance jest podobny do wykresu ze zwykłego lasu losowego, lecz drugą najważniejszą zmienną w tym przypadku jest odległość do metra niż rok budowy.
    Wartości globalne błędów średniokwadratowych oraz R2 dla zbioru treningowego posiadają najgorsze wartości w porównaniu z poprzednimi modelami.
    Biorąc pod uwagę wartości błędów oraz R2 na poziomie lokalnym osiągają najlepsze wyniki względem poprzednich modeli.
    RMSE na poziomie lokalnym wynosi jedynie 6224, jednak biorąc pod uwagę globalną wartość, wartość predykcyjną oraz R2, model ten wykazuje najgorsze wyniki niż dwa poprzednie modele.
    Zauważalna jest zmniejszona liczba mieszkań w okolicach centrum, dla których ważność posiadania windy ma większa wartość.
    R2 dla większości obserwacji posiada większą wartość (od koloru żółtego). Istnieją natomiast pojedyńcze mieszkania w kolorze najsłabszego dopasowania (zielonego)
    Dopasowanie predykcji do obserwacji pogorszyło się względem modelu Random Forest ze współczynnikami GWR.
    Również na mapie zauważalne jest, że dla modelu GWRF wartości dla zbioru walidacyjnego oraz testowego są bardziej niedoszacowane niż w poprzednich modelach.

    Wnioski

    W nieniejszej pracy wyestymowano modele Lasu Losowego, Lasu Losowego z uwzględnieniem współczynników z estymacji regresji ważnonej geograficznie oraz Geograficznie Ważony Las Losowy. Najlepszym modelem okazał się Las losowy ze współczynnikami GWR osiągając najmniejszy błąd średniokwadratowy oraz najlepsze dopasowanie R2. Drugim najlepszym modelem jest zwykły las losowy, jednak model GWRF statystykami nie odbiega od niego znacząco na poziomie globalnym, jednak lokalne wartości metryk przewyższają poprzednie modele. Potwierdza to teorię o istotnym wpływie czynników geograficznych przy modelowaniu danych przestrzennych. Problemem GWRF jest zbyt duże obciążenie pamięci RAM przy zasadniczo małej liczbie obserwacji (przy kernelu fixed) oraz zbyt długi czas modelowania (przy kernelu adaptive). Wyniki za pomocą tego modelu mogłyby być lepsze stosując adaptacyjny typ jądra. Dodatkowo modele mogłyby osiądać lepszą wartość predykcyjną stosując selekcję zmiennych wraz z uwzględnieniem większej liczby obserwacji. Wytrenowanie modelu lasu losowego na współczynnikach regresji ważnonej geograficznie potwierdza, że uwzględnienie czynników przestrzennych przy modelowaniu danych przestrzennych jest istotnym elementem.

    Bibliografia


    Georganos, Stefanos, et al. "Geographical random forests: a spatial extension of the random forest algorithm to address spatial heterogeneity in remote sensing and population modelling." Geocarto International 36.2 (2021): 121-136.
    S.Kalogirou , S.Georganos . "SpatialML", dostęp 21.01.2023
    Hutabarat, Ida Mariati, et al. "Estimating the Parameters Geographically Weighted Regression (GWR) with Measurement Error." Open Journal of Statistics 2013 (2013).
    Geospatial Data Science in R, dostęp 21.01.2023